خوشه بندی اسناد xml با استفاده از جنبه های مختلف اسناد
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
- نویسنده الهه اصغری
- استاد راهنما محمدرضا کیوانپور
- سال انتشار 1392
چکیده
به واسطه قالب نیمه ساختیافته و خاصیت خود توصیف بودن، xml به ابزاری مناسب جهت بازنمایی و تبادل داده روی وب تبدیل گشته و امکان مدل کردن انواع مختلفی از داده ها را فراهم کرده است. با توجه به گسترش روزافزون استفاده از اسناد xml روی وب و اهمیت سازماندهی این اسناد، مطالعه و بررسی این موضوع و ایجاد بهبود روش های خوشه بندی اسناد xml جهت استفاده موثرتر از آنها ضروری می نماید. یکی از مهمترین چالش های موجود در این زمینه، کاوش حجم عظیمی از اسناد ناهمگن xml با در نظر گرفتن معنای ساختاری در کنار ساختار و محتوای اسناد می باشد. استخراج ویژگی های مهم، مدل کردن و ترکیب ساختار و محتوای اسناد با در نظر گرفتن معنای ساختاری درون اسناد به منظور کاوش سریع و خوشه بندی کارآمد روی مجموعه اسناد xml ناهمگن در زمانی قابل قبول، به عنوان هدف اصلی این پژوهش تلقی می شود. اساس خوشه بندی اسناد xml بر مبنای استفاده از معیاری است که تعیین کننده میزان شباهت بین اسناد می باشد که این شباهت می تواند از جنبه ساختار، محتوا، مفهوم و یا ترکیبی از هر یک از آنها باشد. سپس با اعمال الگوریتم های خوشه بندی متداول و یا بهبود یافته آنها، گروه بندی اسناد صورت می گیرد. در این تحقیق در راستای رفع چالش های مطرح شده روشی جهت استخراج ویژگی های ساختاری مبتنی بر مفهوم فرکانس مسیر-واژه و با در نظر داشتن معنای نهان در ساختار اسناد، به همراه ضرایبی جهت وزن دهی این ویژگی ها ارائه شده است. سپس دو روش مجزا جهت خوشه بندی اسناد xml ارائه شده است. در روش اول یک الگوریتم خوشه بندی نیمه نظارتی مبتنی بر شبکه عصبی som پیشنهاد گشته و در روش دوم که روشی فاقد نظارت است با تعریف معیار شباهت مبتنی بر برچسب ها و یال ها، الگوریتم های islb و eislb جهت خوشه بندی اسناد ارائه گردید. روش های پیشنهادی به صورت مجزا با استفاده از دو مجموعه داده ی acm sigmod و niagara مورد ارزیابی و با روش های متفاوت فاقد نظارت اعمال شده روی همین مجموعه داده ها مورد مقایسه قرار گرفته است. نتایج بدست آمده از آزمون ها حاکی از آن است که روش اول روشی مناسب در روش های نیمه نظارتی محسوب می شود ضمن اینکه روش دوم علاوه بر اینکه نسبت به روش اول نتایج بهتری بدست آورده نسبت به روش های موجود نیز عملکرد بهتری بدست آورده است.
منابع مشابه
خوشه بندی اسناد xml به منظور کشف دانش
امروزه اطلاعات موجود بر روی وب به سرعت در حال افزایش است و حجم بسیار زیادی از این اطلاعات در قالب xml ارائه شده است. یکی از مزایای اصلی استفاده از xml، نمایش داده های غیر ساخت یافته است که قابلیت های بسیاری را در اختیار کاربران قرار می دهد. ویژگی غیر ساخت یافته بودن اطلاعات و انعطاف پذیری xml باعث همه گیر شدن استفاده از آن شده است. با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این ...
15 صفحه اولبسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو
بسط پرسوجو بهعنوان یکی از روشهای انطباق پرسوجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش میدهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرسوجو است که فرض میکند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرسوجو هستند و کلمات بسط را از این اسناد انتخاب میکند. درحالیکه ممکن است اسناد نامرتبط به پرسوجو در اسناد رتبهبالا وجود داشته باشد. روشهایی برای انتخاب اسناد مرتبط و نادیده گرفتن...
متن کاملارتقاء کیفیت سیستم های بازیابی اطلاعات متنی با استفاده از الگوریتم های خوشه بندی اسناد
سیستم های بازیابی اطلاعات، با استفاده از یک استراتژی بازیابی خودکار تلاش می کنند اسناد مرتبط بیشتری را برای کاربر نمایان ساخته به نحوی که تا حد ممکن هیچ سند غیر مرتبطی بازیابی نگردد. در شاخه بازیابی اطلاعات، ارزیابی سیستم بازیابی اطلاعات نقشی اساسی ایفا می کند. در این خصوص، ارزیابی میزان کیفیت و اثربخشی بازیابی مهمترین نوع ارزیابی سیستم می باشد که تعیین کننده آن است که یک سیستم یا الگوریتم، تا ...
15 صفحه اولخوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی
داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...
متن کاملطبقه بندی سنگ های ساختمانی از دیدگاه قابلیت برش با استفاده از روش خوشه بندی فازی
پیش بینی قابلیت برش سنگ به عنوان یکی از فاکتورهای موثر در تخمین هزینهها و پیش بینی میزان تولید یک کارخانه فرآوری سنگ از اهمیت بالایی برخوردار میباشد. بنابراین شناخت کامل سنگهای ساختمانی و ارزیابی توان اجرایی دستگاههای برش در کارخانههای فرآوری، طراحان و برنامهریزان تولید را به سمت بهبود سرعت فرآوری و افزایش تولید سوق میدهد. از اینرو، به کارگیری روشهای نو و کاربردی برای دستیابی به این اه...
متن کاملاثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn
بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023